18. 线性回归注意事项

线性回归注意事项

线性回归隐含一系列前提假设,并非适合所有情形,因此应当注意以下两个问题。

最适用于线性数据
线性回归会根据训练数据生成直线模型。如果训练数据包含非线性关系,你需要选择:调整数据(进行数据转换)、增加特征数量(参考下节内容)或改用其他模型。

容易受到异常值影响
线性回归的目标是求取对训练数据而言的 “最优拟合” 直线。如果数据集中存在不符合总体规律的异常值,最终结果将会存在不小偏差。

在第一个图表中,模型与数据相当拟合。

但若添加若干不符合规律的异常值,会明显改变模型的预测结果。

在大多数情况下,模型需要基本上能与大部分数据拟合,所以要小心异常值!